#ataques de jailbreak

Jailbreaking y Mitigación de Vulnerabilidades en Grandes Modelos de Lenguaje

Aprende estrategias efectivas para mitigar el jailbreaking en Grandes Modelos de Lenguaje y proteger tus sistemas de inteligencia artificial.

SelfGrader detecta jailbreaks en modelos de lenguaje usando logits de token anclados. Un método eficaz y preciso para la seguridad de LLMs.